評価指標(第6章 固有表現認識)
抽出した固有表現のスパンとそのラベルが、人手でラベル付けられたデータセットの固有表現(正解の固有表現)のスパンとラベルと一致しているかを評価することが一般的 (Kindle の位置No.4071-4072)
precision
recall
F-score
正解率(accuracy)はあまり用いない
正解率では固有表現ではない語句を予測することも評価されますが、それを正解することにあまり意味がないから (Kindle の位置No.4078-4079)
平均
マイクロ平均は「ラベル間で固有表現の数に偏りがある場合」
評価スコアを一度だけ算出
(weightedとは違う。もうちょっと理解深めたい。TODO 手を動かそう)
(IMO:少数のラベルは問題として難しく、マクロ平均にすると低いスコアとなり、全ラベルの平均に効いてきそう)
マクロ平均は各ラベルの重要性を等しくしたいとき
ラベルごとの評価スコアを算出し、それを平均している
(IMO:どのラベルも等しくよい性能になってほしい)
重み付き平均は、各ラベルの固有表現の数で重みを付けて、マクロ平均を算出 (Kindle の位置No.4097-4098)
(IMO:多数のラベルほど性能がよくなってほしい。少数は性能が悪くてもあまり影響しない)
seqevalの入力形式に合わせるために関数を実装
文字単位の固有表現ラベルのリストを返す関数
正解データも予測データも文字単位のラベルに加工してseqevalに渡す